Resultat 1 - 6 av 6
Project Astra är Googles imponerande vision för AI-assistenternas framtid
Vi lever i framtiden. Utvecklingen inom artificiell intelligens går ruskigt fort framåt och vi har snart en digital assistent vi knappt hade kunnat drömma om för bara några år sedan. Google vill inte missa tåget och har nu tillkännagivit Project Astra somSammanhang: ...I videon nedan visas hur Gemini tolkar ett video- och ljudflöde i realtid och svarar på frågor om omgivningen, vilket påminner om OpenAI:s multimodala AI som tillkännagavs under gårdagen. ...
OpenAI närmar sig Samantha i Her genom mänskligt tal [Opinion]
I Spike Jonzes Oscarsbelönade sci-fi-drama Her från 2013 blir Joaquin Phoenix karaktär förälskad i en digital personlig assistent, vars röst gestaltas av Scarlett Johansson. Assistenten, som döpts till Samantha, kan se och höra omvärlden genom en telefonsSammanhang: ...Modellen kan hantera och tyda ljud, bild, rörliga bilder och text i realtid. Vad som imponerade mest är dock kanske utvecklarens kusligt mänskliga text-till-tal-motor som imiterar alla de olika nyanserna, tonfallen, andetagen och spontana skratten i mänskligt tal. ...
Omnämnda platser: Europa. Omnämnda personer: Joaquin Phoenix, Scarlett Johansson, Spike Jonzes.
Google ger imponerande glimt av multimodal AI innan I/O
Kanske för att kontra vad OpenAI just nu presenterar har Google givit en imponerande glimt av hur Gemini till synes tolkar video i realtid. Personen i klippet pratar med Gemini och frågar vad chattbotten tror pågår, medan kameran riktas mot en I/O-scen. GoogleSammanhang: ...Kanske för att kontra vad OpenAI just nu presenterar har Google givit en imponerande glimt av hur Gemini till synes tolkar video i realtid. Personen i klippet pratar med Gemini och frågar vad chattbotten tror pågår, medan kameran riktas mot en I/O-scen. ...
OpenAI introducerar GPT-4o som kan tolka ljud, bild och text i realtid
OpenAI har nyss presenterat sin senaste och mest avancerade språkmodell GPT-4o som kan tolka ljud, bild och text i realtid (något Google nyss visade att Gemini klarar). Tillägget av bokstaven ”o” i namnet på språkmodellen står för ”omni”. Enligt utvecklarenSammanhang: ...OpenAI har nyss presenterat sin senaste och mest avancerade språkmodell GPT-4o som kan tolka ljud, bild och text i realtid (något Google nyss visade att Gemini klarar). Tillägget av bokstaven ”o” i namnet på språkmodellen står för ”omni”. ...
Microsoft VASA genererar talande ansikten i realtid
Microsoft har introducerat VASA: ett ramverk för att generera talande ansikten i realtid. Exemplen nedan visar personer som inte existerar. De talande ansiktena har skapats utifrån en enda bild och ett enda ljudklipp. Bild-till-video-modellen kan simuleraSammanhang: ...Microsoft har introducerat VASA: ett ramverk för att generera talande ansikten i realtid. Exemplen nedan visar personer som inte existerar. De talande ansiktena har skapats utifrån en enda bild och ett enda ljudklipp. ...
Vi går igenom AI-funktionerna i Galaxy S24-serien
Google blev först att erbjuda inbyggd generativ AI i en smartphone genom Pixel 8 och Pixel 8 Pro. Många andra tillverkare kommer erbjuda AI-baserade finesser i år och Samsung är inget undantag. Samsung skriver att AI förstärker nästan varenda upplevelse iSammanhang: ...Andra personens tal översätts till ditt språk i realtid. Finessen är integrerad direkt i telefonappen och kräver internetuppkoppling. Vi vet dock inte om översättningarna stödjer svenska från början. ...
Omnämnda platser: Galaxy S24, Sverige. Omnämnda personer: Google Lens.